Radioecology : Analyse de corpus de publications

Author

Cozic, Solen, Geoffroy, Géraldine

Published

June 8, 2023

1 Objet

La demande porte sur la constitution d’un corpus d’articles contenant le terme “radiocology” dans le titre et sur l’analyse de ce corpus :

  • analyse quantitative : nombre de publications par date, par revue et par type de publication
  • analyse lexicométrique
    • Co-occurrences dans le champ titre
    • Co-occurences avec le terme radioecology dans le titre

Cette note présente seulement des réponses de type programmatiques, deux outils complémentaires de etxt mining en ligne sont aussi présentés à la fin.

Les données brutes sont également téléchargeables depuis cette page (fin de page)

2 Constitution du corpus

2.1 Source Scopus

  1. Extraction (par l’interface web Scopus)
  • Périmètre : radio*ecolog* dans tous les champs et sur la période 1964-2023
  • Requête : ALL ( radio*ecolog* )
  • Nombre de résultats : 13 631 publications
  • Nombre de résultats après traitement : 11 129 publications
  1. Export des champs : ‘Authors’, ‘Title’, ‘Year’, ‘Source title’, ‘DOI’, ‘Document Type’, ‘Source’, ‘Publisher’, ‘Abstract’

2.2 Source Istex

Rappel Istex

Istex est un réservoir national d’archives scientifiques normalisées constitué par 4 opérateurs institutionnels (CNRS, Abes, consortium Couperin et Université de Loraine) suite à l’acquisition centralisée et pérenne de collections retrospectives de littérature scientifique auprès de multiples éditeurs. La plateforme Istex héberge et donne accès à 27 milions de publications, assorties de métadonnées enrichies.

  1. Extraction (par l’API Istex)
  • Périmètre : radio*ecolog* dans tous les champs, filtre sur les docs de type article (beaucoup de bruit sinon)
  • Requête : https://api.istex.fr/document/?q=radio*ecolog* AND genre:article&output=doi,title,abstract,author,publicationDate,genre,host.title&size=6000&extract=metadata[json]
  • Nombre de résultats : 5387 publications
  • Nombre de résultats après traitement : 5349 publications
  1. Export des champs : ‘doi’, ‘title’, ‘publicationDate’, ‘genre’, ‘author.name’, ‘host.title’, ‘corpusName’, ‘Abstract’

2.3 Dédoublonnage et corpus final

En concaténant puis dédoublonnant (sur le DOI et sur le titre) les deux datasets issus de Scopus et Istex, on obtient un corpus de 11 862 publications sur la période 1962-2023

3 Analyse quantitative

3.1 Nombre de publications par année (de publication)

3.1.1 Graphique

3.1.2 Données

Année de publication Nombre de publications
Loading... (need help?)

3.2 Principales revues (Top 20)

3.2.1 Graphique

3.2.2 Données

Revue Nombre de publications
Loading... (need help?)

3.3 Types de document

3.3.1 Graphique

3.3.2 Données

Type de documents Nombre de publications
Loading... (need help?)

4 Analyse lexicométrique sur les titres

4.1 Wordcloud

<matplotlib.image.AxesImage at 0x1b77e3dc7f0>

Nuage de mots (mots du titre)

4.2 Unigrammes (termes uniques les plus utilisés)

4.2.1 Graphique (Top 30)

Le graphique ne montre que les 30 termes les plus fréquents

4.2.2 Données (complètes)

word count
Loading... (need help?)

4.3 Co-occurences (bigrammes)

4.3.1 Graphique (Top 50)

4.3.2 Données (complètes)

bigram count
Loading... (need help?)

4.4 Co-occurences du terme radioecolog*

4.4.0.1 Graphique (Top 50)

Top 50 co-occurences les plus fréquentes avec le terme radioecolog*

4.4.1 Données (complètes)

bigram count
Loading... (need help?)

4.4.2 Visualisation en réseau des co-occurences des mots du titre

Visualisation en plein écran accessible ici

html/title_bigram_network.html

Graphe des co-occurences

5 Visualisation complémentaire sur les abstracts

Une visualisation suplémentaire en graphe interactif à partir des co-occurrences dans les abstracts a été produite avec l’instance en ligne du logiciel VOSwiewer et est accessible ici :

https://nocodefunctions.com/html/vosviewer/index.html?json=data/public/vosviewer_6d4639b3039235dc3f26.json

VOSviewer-screenshot

6 Télécharger les données

Deux fichiers principaux ont été produits : - un fichier contenant les métadonnées des 11 862 publications - un fichier contenant la liste de toutes les paires de co-occurrences (dans les mots du titre) avec leurs fréquences d’apparition

Chacun des 2 fichiers est disponible en formats .csv et .xlsx.

7 Autres outils de text mining en ligne

Voyant Tools : https://voyant-tools.org/

Nocode functions : https://nocodefunctions.com/index.html

8 Code source

https://github.com/azur-scd/appui_recherche_corpus_radioecology